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^= (54) Title: METHOD OF DETERMINING BRANCHED MOLBCUl^ FROM MASS DATA 

= (54) TItre : PROCEDE DE DETERMINATION DE MOLECULES BRANCHEES A PARTIR DE DONNEES DE MASSE 

^= (57) Abstract: The invention relates to a method of determining a branched molecular structure from data relating to masses of fiag- 
^= of said molecule- The inventive method is characterised in that it comprises the following steps: (a) the list of basic elements 

^hf^ form the branched molecule is saved in a memory element; (b) solutions to an equation are stored in a memory element, 
said equation involving the aforementioned basic elements, the mass of same, the number thereof and one of the given masses, step 
= 0?) being performed for all of the masses; (c) sequences of basic elements are created firom said solutions, each sequence compris- 
ing a solution for a minimum mass and the full sequence being the solution for a maximum mass; (d) the sequences are grouped 
^ together by composition; (e) possible tree structures are stored for a composition of basic elements according to the sequences for 
said composition which were determined in step (c); (f) all of the possible fragments of the tree structure are calculated for each tree 
structure from step (e); and (g) a test is performed for each fragment from step (f) in order to ascertain whether or not said fragment 
corresponds to one of the given masses. 
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(57) Abr%^ : Proc^dg de d^tennination d'une structure moMculaire branch^e k partir de donn^es de masses de fragments de ladite 
molecule, caract6ris6 en ce quMl comprend les Stapes suivantes a) une 6tape d^enregistrcment dans une m6moire de la liste des 
616ments de base pouvant constituer ladite molecule branch^ b) une 6tape de stockage en m^moire des solutions h une Equation 
mettant en jeu les ^l^ments de base, leur masse, leur nombre et une des masses donn6es, ceci pour toutes les masses , c) une 6tape 
de constitution de sequences &€l6ments de base k partir desdites solutions, chaque sequence incluant une solution pour une masse 
dite miniraale et la s^uence complete ^tant solution pour une masse dite maximale ; d) une 6tape de regroupement des sequences 
par composition ; e) une ^tape de stockage des arbres possibles pour une composition d'616ments de base en fonction des sequences 
de cette composition d^termin^es k T^tape c) ; f) pour chaque arbre de P^tape e). une 6tape de calcul de Pensemble des fragments 
possibles de Paibre ; g) pour chaque fragment de I'^tape 0. une 6tape de test pennettant de savoir si le fragment coirespond k une 
des masses donnas. 
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PROCfiPE DE DiTERMINATION DE MOLECULES BRANCH^ES A PARTIR DE 

DONN^ES DE MASSE 

5 La prSsente invention se rapporte au domaine de 

1' etude de molecules et de determination de leur 
composition et de leur structure. En particulier, la 
pr^sente invention se rapporte k la determination 
automatique de structures mol^culaires branchSes en 
10 utilisant des donnees de masse. Une application de la 
prSsente invention est la determination de la structure 
d' oligosaccharides & partir de donnees de masse fournies 
par un spectromfetre de masse. 

Dans ce domaine, la technicpie habituellement 
15 utilisee est une etude manuelle des donnees fournies par le 
spectrometre de masse confrontees a une expertise humaine. 
Cette etude est tr6s coflteuse en temps. 

Des solutions ont done ete proposees pour 
realiser de manifere automatique 1' etude des donnees de 
20 masse, mais les outils developpes ne permettent pour le 
moment que de determiner les structures lineaires. 

Le probieme technique que la presente invention 
entend resoudre est la determination d'une structure 
moieculaire branchee & partir d'un spectre de masse ou 
25 d'autres donnees de masse, ceci de manifere entiSrement 
automatique sans intervention de I'homme. Les resultats de 
la determination etant destines k des experts, ceux-ci 
pourront inf irmer ou confirmer les resultats donnes 
automatiquement . 

3 0 La presente invention propose done de determiner 

automatiquement la structure branchee la plus probable pour 
une molecule, les structures lineaires etant incluses dans 
1' ensemble des structures branchees. Pour cela, la presente 
invention realise un certain nombre d' operations sur 

35 1' ensemble des masses fourni et deiivre un resultat • 
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L' expertise humaine peut §tre reguise pour orienter le 
processus ou valider la solution proposSe par le procSdS 
mais cette intervention n'est que ponctuelle et brfeve, 
Ainsi, le temps d' intervention de 1' expert est limitg aux 
seules questions n^cessitant rgellement une competence 
scienti£ic[ue . 



15 



20 



Pour ce faire, la prSsente invention est du type 
dficrit ci-dessus et elle est remarquable dans son 
10 acceptation la plus large, en ce qu'elle concerne un 
procedS de determination d'une structure molSculaire 
branchSe a partir de donnSes de masses de fragments de 
ladite molecule, comprenant les etapes suivantes : 

a) une etape d' enregistrement dans une memoire 
de la liste des elements de base pouvant 
constituer ladite molecule branchSe ; 

b ) une etape de stockage en mSmoire des 
solutions a une equation mettant en jeu les 
elements de base, leur masse, leur nombre et 
une des masses donnees, ceci pour toutes les 
masses ; 

c) une etape de constitution de sequences 
d' elements de base a partir desdites 
solutions, chaque sequence incluant une 
solution pour une masse dite minimale et la 
sequence complete etant solution pour une 
masse dite maximale .; 

d) une etape de regroupement des sequences par 
composition ; 

e) une etape de stockage des arbres possibles 
pour une composition d' elements de base en 
fonction des sec[uences de cette composition 
determinees k 1' etape c) ; 
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f) pour chaque arbre de I'Stape e) , une 6tape de 
calcul de 1' ensemble des fragments possibles 
de 1 ' arbre ; 

g) pour chaque fragment de l'6tape f ) , une etape 



correspond a une des masses donnees ; 
Avantageusement , l'§tape b) est realisee de 



manidre incrementale depuis la plus petite masse vers la 
plus grande masse, la solution pour une masse est cherchee 
en utilisant les solutions trouvees pour les masses 
inf^rieures et les donnees correspondant aux dites 
solutions sont stockees dans un tableau. 



De prgf^rence, I'gtape c) consiste k d^finir le 



N-eme element de base de la sequence en comparant la 
solution N pour la masse avec la solution N-1 a partir de 
laquelle la solution N a trouvee et a ecrire dans un 

fichier tin identifiant dudit N-eme Element de base. 

Selon un mode de realisation prSfere, I'Stape e) 
consiste §l : 

associer k chaque Element de base d'une 



comportant un identifiant de 1' element de 
base et au moins une reference k un autre 
noBud ; 

- a la N-6me §tape, pour chaque arbre de 
I'^tape N-1, pour chaque nceud comportant une 
reference libre, cr§er un noeud contenant le 
composant N de la sequence et affecter ladite 
r6f6rence libre audit noeud cree. 

Avantageusement, l'6tape f) consiste a gen^rer 



une liste de sequences d' elements de base od chaque 
sequence inclut ladite solution pour une masse minimale, 
lee elements du fragment correspondant ^ ladite sequence 



de test permettant de savoir si le fragment 



sequence une donn§e de type 



« noeud » 
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Stant ordonngs par ajout de <c noeud » en « noeud » S partir 
de ladite solution pour Une masse minimale- 

De prSfgrence, l'€tape g) est composge de deux 

Stapes : 

5 - une Stape de comparalson de la sSquence 

correspondant audit fragment avec les sScpaences 
de ladite composition resultant un premier 
boolSen VRAI ou FAUX ; 
- Si ledit premier bool6en est FAUX, une etape de 
10 comparaison de la composition de ladite sequence 

avec les compositions des sous -sequences de m§me 
longueur incluant la solution minimale desdites 
sequences solutions pour une masse maximale 
resultant un deiixiSme boolSen VRAI ou FAUX. 
15 Selon un autre mode de realisation, le proc^dS 

comprend une St ape supplSmentaire de choix de I'arbre (des 
arbres) le(s) plus pertinent (s) en fonction des rSsultats 
de 1' etape g) en associant k chacun des arbres ^generes k 
I'Stape e) un compteur mis a zero au dSbut du proc6d6 et 
20 increments d'un si lesdits deux boolSens sont FAUX et en 
choisissant I'arbre (ou les arbres) dont le(s) compteur (s) 
est (sont) le(s) plus faible(s) . 

La prSsente invention se rapporte Sgalement a 
\me utilisation du procSdS de determination d'une structure 
25 molSculaire branchee dScrit dans les paragraphes prScSdents 
caractSrisSe en ce que la structure recherchSe est un 
oligosaccharide, les donnSes de masse sont obtenues par 
spectromStrie de masse et les SlSments de base sont des 
monosaccharides ou des groupements substituants . 
30 On comprendra mieux la prSsente invention k 

I'aide de la description, faite ci-aprSs 3 titre purement 
explicatif, d'un mode de rSalisation de 1' invention, en 
rSfSrence aux figures annexSes : 

La figure 1 reprSsente un spectre arbitraire 
35 de masse simulant un spectre expSrimental . 
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La figure 2 illustre la premifere partie du 
d^roulement d'un mode de realisation de 
1 ' invention . 

La figure 3 illustre la deuxieme partie du 
5 dSroulement d'un mode de realisation de 

1' invention. 

Le procede selon 1' invention comporte 5 etapes 
precedSes d'une 6tape prSliminaire r6alis6e ind6pendamment 
10 du procSdS : 

L'etape preliminaire consiste a obtenir un 
ensemble de masses correspondant a des fragments de la 
molecule ^ determiner. Cet ensemble de masses est appel§ 
15 « spectre experimental » . 

La premiere etape consiste ^ enregistrer 
1' ensemble des molecules simples susceptibles de composer 
la molecule & determiner. 

20 

La deuxieme etape consiste a determiner 
1' ensemble des chemins allant d'une structure racine une 
structure finale o\X la structure racine correspond Bl une 
valeur dite « minimale » de 1' ensemble des masses et la 

25 structure finale correspond ^ une valeur dite « maximale x> 
de 1' ensemble des masses. L' ensemble de ces chemins passe 
par des structures intermediaires , c'est-&-dire incluant la 
structure racine et incluses dans la structure finale, et 
correspondant ^ des valeur s de masses comprises entre la 

30 valeur minimale et la valeur maximale. 

La troisi^me etape consiste k generer des 
sequences de molecules simples obtenues ^ partir desdits 
chemins et de regrouper les sequences ayant les m§mes 
35 nombres de chaque molecule simple en « composition » . 
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La guatridme 6tape consist e d determiner pour 
chaque composition, 1' ensemble des arbres possibles. De 
pr6f6rence, chaque arbre doit pouvoir gtre const itu§ k 
5 partir de n' import e quelle sequence de la decomposition. 

La cinquiSme gtape consiste ^ calculer pour 
chaque arbre le « spectre » thSorique de 1' arbre en 
diSterminant de tous les fragments possibles de 1' arbre 
10 contenant la racine et ^ comparer le spectre th6orique avec 
le spectre experimental. 

Le resultat de la comparaison permet de 
determiner quel est 1' arbre le plus probable, 

15 

Le precede selon 1' invention peut Stre utilise 
pour determiner de maniSre automatique la con5>osition 
d' oligosaccharides • Pour la determination d'un 
oligosaccharide, il comporte plusieurs etapes : 

20 

Une etape preiiminaire est destinee a obtenir un 
ensemble de masses (appeie « spectre ») obtenu par 
spectrometrie de masse de la molecule k determiner, Les 
masses de cet ensemble comprennent les masses de fragments 
25 de la molecule, de produits de recomposition entre les 
composants de la molecule ou de fragments substitues • 

Une premidre etape consiste a enregistrer dans 
une memoire la liste des monosaccharides connus ainsi que 
30 leur masse, 

Une deuxidme etape consiste IL parcourir 
1' ensemble des masses determinees par spectrometrie. Pour 
une premiere masse, le precede cherche ^ resoudre 
35 l'ec[uation suivante, appeiee equation Y : 
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masse totale mesuree = 
(Somme des massea des composants - partes de liaisons) 
+ (aglycone - perte liaison agly cone- root) * + masse ION + 
5 agent rSducteur 

(*) ssi aglycone o 

Cette equation se traduit par = 
M±err^ ^{ai * mi) - [(X(^0 - 1) * ^2^^] + {aglycone - H^O)' 

+ION A- reduction 
ssi aglycone 0 

10 oH : 

M = masse experiment ale mesuree dans le spectromStre de 
masse 

err = erreur de meeiure du spectromfetre 
mi = masse (monoisbtopique) du composant 1 
15 ai = nombre de composants i apparaissant dans la solution 
(ai est un entier) 
H2O = masse d'une molecule d'EAU 

aglycone = masse de 1' aglycone en cas d' aminoreduction 
ION = masse de I'ion 
20 reduction = increment de masse dQ aux conditions de 
reduction 

Selon le proc6d6, 1' ensemble des masses 
dSterminSes est parcouru dans I'ordre des masses 

25 croissante.s et pour chaque masse, on cherche un ou 
plusieurs monosaccharides rSsolvant 1' Equation Y. La plus 
petite masse pour laquelle 1' Equation Y a une solution est 
appelSe masse minimale et la solution k 1' Equation Y pour 
la masse minimale est appelSe « racine » , La racine pent 

30 §tre composSe d'un ou de plusieurs monosaccharides. Cette 
racine est le premier ^ISment d'un ensemble de chemins : 
1' ensemble des chemins est un tableau et chaque ligne du 
tableau constitue une Stape d'un chemin. 
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Par la suite, on continue le parcours des masses 
par ordre croissant en essayant de rfisoudre 1' Equation Y 
avec des structures de monosaccharides incluant la racine. 
Chaque structure solution est ajout6e audit teibleau. De 
5 marii^re 6t endue, chaque structure s^olution de 1' Equation Y 
pour une des masses mesurges inclut une structure 
prfealablement enregistrfee dans le tableau. Ainsi, un 
systSme d' heritage est mis en place & partie de la racine : 
chaque structure solution, exceptee la racine, a une 
10 <c m^re » paxmi les autres structures solutions. 

Dans ce tableau, chaque ligne correspond ^ une 
structure de monosaccharide et donne la quantity de chaque 
monosaccharide (super ieur ou egal k 0) dans la structure 
ainsi que le num^ro de la ligne de la structure « mSre » de 
15 la structure courante. 

La recherche d'une solution de 1' Equation Y pour 
une masse dite courante consiste done & aj outer au moins un 
monosaccharide Sl xme structure solution de 1' Equation Y 
pour une masse inf6rieure ^ la masse courante. Pour cela, 
20 ledit tableau est parcouru et pour chaque ligne (i.e. 
chaque structure) , une solution incluant la structure 
correspondante k ladite ligne est cherch€e. Afin de rSduire 
le temps de calcul, certaines lignes ne sont pas traitSes : 
les structures solutions de 1' equation Y pour une masse 
25 infferieure d'une certaine quantity k la masse courante ne 
sont pas indues dans la recherche. Cette quantity est 
choisie arbitrairement par 1' utilisateur . Dans un mode de 
realisation du proc6d§, cette quantity 6tait Sgale k deux 
fois la masse du monosaccharide le plus lourd (NeuGC) . 
30 Ainsi, soit une structure solution SI de 

1' Equation Y pour une masse de raies rl, s'il n'existe 
aucun monosaccharide ou assemblage de monosaccharides, qui, 
agrSgS k ladite solution SI est solution de 1' Equation Y 
pour toutes les masses experimental es comprises entre rl et 
35 r2=rl+2*Masse (NeuGC) , alors la solution SI n'a pas de fils 
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et n'est plus prise en compte pour las recherches des 
solutions de 1' Equation Y pour des masses sup6rie\ires ^ r2 . 

Dans I'exemple de la figure 1, la premiere raie 
correspond d une masse de 300,4 Daltons. 
5 rl = 300,4 Da 

M(NeuGC) = 327,1165 Da 

2*M(NeuGC) = 654,233 Da 

rl + 2*M(NeuGC) =954,633 Da 

10 r2 = 500,30 Da < 954,633 Da 

r3 = 665,50 Da < 954,633 Da 
r4 = 811,56 Da < 954,633 Da 
r5 = 827,80 Da < 954,633 Da 
r6 = 973,86 Da > 954,633 Da 

15 

Ainsi pour les raies 2 & 5, on cherchera k 
combiner la solution pour la raie 1 avec une ou plusieurs 
molecules de base. En revanche, pour la raie 6, on ne 
cherchera pas a combiner la solution pour la raie 1 avec 
20 une ou plusieurs molecules de base. 

La masse maximale pour laquelle Y a une solution 
est appelSe « masse maximale Seuls les chemins 

aboutissant ^ une structure solution de 1' equation Y pour 
25 la masse maximale sont consideres comme valables. 



Une troisiSme Stape intervient une fois 
1' ensemble des structures solutions dfitermin^es : les 
structures solutions de 1' Equation Y pour la masse maximale 

30 sont traitSes. En effet, seules ces structures sont 
susceptibles de correspondre a la molecule recherchSe car 
elles couvrent tout le spectre de la raie minimale (racine) 
k la raie maximale pour laquelle elles sont solutions, 
L'Stude de 1' heritage des structures s61ectionn6es permet 

35 d' identifier la sequence des monosaccharides, c' est-ll-dire 
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I'ordre dans lequel ils ont St6 ajoutfes ^ la racine. On 
obtient ainei un ensemble de sequences que I'on stocke dans 
\ine memoire* 

Certalnes de ces sequences ont la mSme 
5 composition , c'est-a-dire la mSme quantity de chaque 
monosaccharide ou de chaque groupement substituant, Ces 
sequences de mSme composition sont regroupSes en une seule 
<c composition » de 1' Equation Y pour la masse maximale. 

Pour chaque « composition », tme quatrifeme Stape 
consiste a determiner les arbres possibles. Pour cela, 
I'utilisateur determine pour une premidre sequence de 
ladite composition les arbres possibles : 

chaque element de la sequence (un 
monosaccharide) est associe a un « noeud » qui 
comprend trois liens vers trois autres « noeuds » 
et un identifiant de I'Slgment. Ces liens sont 
appeies gauche, droite et milieu ; 

- ainsi, le premier glSment de la sequence (la 
20 racine) est associS & un premier noeud ; 

- pour le deuxieme element de la sequence, on cree 
trois ensembles de noeuds : chaque ensemble 
contient deux noeuds dont le premier correspond a 
la racine et le second audit dexaxifeme eiSment, 

25 les deux noeuds etant respectivement lies par le 

lien gauche, le lien droite et le lien milieu 
pour les premier, deuxidme et troisiSme 
ensembles, Ces ensembles de noeuds sont appeies 
des < arbres » et 1' ensemble (2) des arbres 

30 contient les arbres comprenant le deuxidme 

element ; 

- Ainsi de suite, pour le n-iSme element, 
1' ensemble (n) des arbres est compose d'arbres 
crees a partlr des arbres de 1' ensemble (n-1) , 

35 chaque nouvel arbre correspondant 3 \an arbre de 
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1' ensemble (n-1) ajout^ d'lin noeud correspondant 
au n-iSme 61§ment sur un des liens libres. 
Pour rSduire le temps de calcul de 1' ensemble 
des arbres final, on supprime au fur et a mesure 
5 les arbres redondants : par exemple, les ^trois 

arbres composes de deux molecules de fucose oii 
la deuxieme molecule est situfee respect ivement 
sur les liens droite, gauche et milieu, sont 
equivalents, Ainsi, tin certain nombre d' arbres 
10 sont ^limin^s. 

Ensuite, les arbres restants sont compares aux 
autres sequences de la meme composition : un arbre est 
conserve si toutes les sequences de la meme composition 
peuvent etre realis^es avec cet arbre. 

15 

Le choix de trois liaisons possibles a partir 
d'un nceud a ete pris en reference a la valence 4 de I'atome 
de carbone sur lequel se fixe en g^nSral 1 ' element de base 
suivant . 

20 

Pour une composition, il reste done un ensemble 
d' arbres « compatibles » avec toutes les sequences de la 
composition. 

25 Afin de determiner quel est 1' arbre le plus 

probable de manifere automatique, le procSdg propose dans 
une cinqui^me §tape de comparer le spectre thSoriqpae de 
chaque arbre restant avec le spectre experimental mesure 
par le spectrometre de masse. Pour cela, le proc6d6 compte 

30 le nombre de raies du spectre th6orique qui n'ont pas pu 
etre utilisSes par le proc6d6. Une raie du spectre 
thSorique d'un arbre correspond k la masse d'un fragment de 
1' arbre, Le calcul du spectre thSorique d'un arbre revient 
done a calculer les masses des sous-arbres inclus dans 

35 1' arbre et contenant la racine, Le nombre de masses de 



o o 

wo 2004/024654 PCT/FR2003/002676 

12 

sous-arbres n'existant pas dans 1' ensemble des masses 
experiment ales determine la probability d' occurrence de 
I'arbre en question. 

La mSthode employee de pr6f6rence par le procSdS 
5 permet de r6duire le temps de calcul : pour un arbre, le 
calcul de la liste des fragments se fait de la manifere 
suivante : 

- un op§rateur « multiplication d'une liste par un 
element » est cree qui, a partir d'une liste 

10 d'glSments, crSe une nouvelle liste oii chaque 

Element est le rSsultat de la concatenation de 
1' element nouveau avec un SlSment de la liste 
d'entrSe. 

- un op§rateur <c produit de deux listes » rSsulte 
15 du premier : c'est 1' application de I'opSrateur 

« multiplication d'une liste par un element » 
sur tous les items de la liste 1 avec la liste 
2. 

Ainsi, la liste des fragments produite a \m nceud 
20 quelconque est egale au produit des listes issues de ses 
fils, qui est ensuite multipliS par I'SlSment du noeud ; une 
masse nulle est ajoutee enfin en tSte de liste ; 
1' introduction de la masse nulle implSmente le fait c[ue la 
branche peut-Stre absente ; cette masse nulle se propage 
25 dans le parcours rScursif et permet d' avoir la liste 
complete en un seul parcours ; la liste produite par une 
feuille est done une liste de deux elements : [0, elt] . 



Une fois la liste des fragments de I'arbre 
30 obtenue, le procSdS determine le nombre de fragments 
thfeoriques trouvSs ne correspondant h aucune des masses 
expSrimentales fournies. Afin d'Sviter de recalculer la 
masse th6oric[ue pour chaque fragment, le procSde propose de 
comparer les fragments thfioriques determines avec les 
35 decompositions d'une « sequence »• En effet, la liste de 
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fragments construite est compos§e de fragments pr^sentes 
sous forme de suite de monosaccharides. Pour un fragment, 
si ladite suite de monosaccharides est presente dans une 
des decompositions de la «. sequence », alors il existe une 
5 raie du spectre correspondant & cette suite de 
monosaccharides. Done le fragment th^orique correspondant 
est present dans le spectre experimental. De plus, il peut 
arriver que la suite de monosaccharides repr^sentant un 
fragment ne soit pas ordonnee de fagon k ce qu'elle soit 

10 reconnue comme valable. Pour rSsoudre ce genre de cas, le 
procSdS realise une comparaison des compositions de la 
suite de monosaccharides, sans ordre, avec la partie de 
meme taille des decompositions. Si les deux compositions 
sont identiques, le fragment correspond ^ une raie du 

15 spectre experimental. 

Les fragments dont la composition ne se retrouve 
pas parmi les decompositions sont appeiees des <c raies 
manquantes » du spectre thSorique de I'arbre. Le nombre de 
raies manquantes determine la pertinence de I'arbre. 

20 L'arbre ayant le moins de raies manquantes definit la 
structure la plus probable pour la molecule. Si plusieurs 
arbres ont le mSme nombre minimal de raies manquantes, il 
est necessaire de recourir k une expertise humaine qui 
saura determiner quel est I'arbre le plus probable. 

25 En particulier, cette expertise s'appuie sur 

I'equilibre naturel des molecules. Une extension du procede 
de 1' invention peut prendre en compte cet equilibre pour 
determiner I'arbre le plus probable, en comptant par 
exemple le nombre de monosaccharides sur chaq[ue sous-arbre 

30 d'un nceud comportant plusieurs sous-arbres ainsi que le 
type des monosaccharides, 

Un exemple de realisation de ce precede est 
decrit ci-dessous en se referant a\ix dessins. 
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Le spectromfetre de masse fournit les donn^es 
representees sur la figure 1, oil chaque pic (ou raie) 
correspond k la masse d'un fragment de la molecule. On 
consid^re que 1' oligosaccharide cherchS est composS de 
5 HexNAC (masse : 221,0899 Da), d'Hexose (masse : 180,0364 
Da) et de Fucose (masse j 164,0684 Da). La resolution de 
1' equation Y donne le tableau suivant : 



o 



N* ligne 


HexNAC 


Hexose 


Fucose 


Ligne 
« m^re » 


N<» raie 


1 


1 


0 


0 




1 


2 


2 


0 


0 


1 


2 


3 


2 


0 


1 


2 


3 


4 


2 


1 


0 


2 


4 


5 


2 


1 


1 


3 


5 


6 


2 


1 


1 


4 


5 



10 II y a deux solutions pour la raie maximale : en 

remontant le chemin menant de la racine (raie 1) ^ la raie 
maximale, on obtient deux sequences : 

HexNAC-HexNAC-Pucose -Hexose (sequence 1) 
HexNAC -HexNAC -Hexose -Fucose (sequence 2) 
15 Ces deux sequences ou decompositions ont la mSme 

composition, elles sont done regroupees dans une seule 
solution. 

On cherche maintenant les arbres possibles pour 
la sequence 2 . La construction des arbres est illustree 

20 figure 2. Une premiere etape consiste a creer un arbre 
contenant un premier <c HexNAC la deuxifeme etape consiste 
k ajouter un deuxifeme HexNAC audit premier HexNAC. Le 
deuxiSme HexNAC peut §tre accroche au premier par le lien 
« gauche », le lien « milieu » ou le lien <c droit ». Dans 

25 la pratique, comme ces trois arbres sont equivalents, un 
seul arbre est construit, avec le deuxifeme hexNAC accroche 
sur le lien <c gauche D'une manidre generale, un nouveau 
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monosaccharide sera toujours accrochS sur le lien libre le 
plus k gauche du noeud prSc^dent et un seul arbre sera 
construit quel que soit le nombre de liens libres du noeud. 
La troisiSme Stape consiste H ajouter un Hexose & 1' arbre 
5 construit k I'^tape 2 : pour cela, il y a deux possibilit^s 
non 6c[uivalentes : 

- accrocher 1' Hexose au premier hexNAC ; 
accrocher 1' Hexose au deuxifeme hexNAC ; 
Ainsi deux arbres sont construits. 

10 La quatrieme Stape consiste enfin a ajouter le Fucose aux 
arbres constiruits a I'^tape 3. Les six possibilitSs (trois 
par arbre) sont d6taill6es sur la figure 2. II est a noter 
. que la molecule HexNAC qui se situait sur le lien gauche du 
premier HexNAC du premier arbre de I'^tape 3 est maintenant 

15 situSe sur le lien milieu pour 1' arbre N<*5 de I'etape 4. En 
effet, sur un noeud, les sous-arbres sont triSs de gauche & 
droite par ordre de poids d^croissant. Comme 1 ' association 
d'un Hexose et d'un Fucose est plus lourde qu' HexNAC, 
1' ordre est inversS par rapport aux autres arbres 

20 possibles, oil ce cas ne se prfisente pas. 

Une £ois les arbres construits pour la sequence 
2, le proc^dS selon 1' invention v6rifie que les arbres 
construits sont compatibles avec la sequence 1. Pour cela, 
le procSdg teste s'il est possible de reconstruire les 

25 arbres de 1 ' Stape 4 avec la sequence 1 , Deux arbres sont 
61imin6s (les arbres N**5 et 6) car il est impossible de 
construire ces arbres sans placer 1' Hexose avant le Fucose* 
Sur les 4 arbres restants, le procSdS selon 
1' invention cherche & determiner le spectre th^orique afin 

30 de le comparer avec le spectre esqpSrimental . Les fragments 
sont dSterminSs selon la methode decrite ci-dessus 
utilisant les op6rateurs « multiplication d'une liste par 
un element » et « produit de deux listes ». Chaque fragment 
determine est dfecrit sous forme d'une sequence stock^e dans 

35 une mSmoire. Cette m6thode est illustrSe figure 3. 
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Par exemple, pour le premier arbre, le proc6d€ 
cr6e trois listes, chac[ue liste correspondant a un des 
« £11 s > du noeud racine : 

5 „ - (HexNAC, 0) ; 

(Hexose, 0) ; 
(Pucose, 0) • 

On applique I'operateur « produit de deux 
listes :» aux deux premieres listes , ce qui donne : 
10 (HexNAC-Hexose, HexNAC, Hexose, 0) 

que I'on multiplie par la . trois iSme liste, 

soit : 

(HexNAC-Hexose-Pucose, HexNAC- Hexose, HexNAC- 
Fucose, HexNAC, Hexose -Fucose, Hexose, Pucose, 0) 

15 

On applique I'opSrateur « multiplication d'une 
liste par un element » k la, liste prScfedente avec 1' element 
<c HexNAC ce qui donne : 

(HexNAC-HexNAC -Hexose -Fucose, HexNAC - HexNAC - 
20 Hexose, HexNAC-HexNAC-Fucose, HexNAC -HexNAC, HexNAC -Hexose- 
Fucose, HexNAC-Hexose, He3cNAC- Fucose, HexNAC) 

Cette liste est la liste des fragments pour le 
premier arbre. Chaque Slfiment de cette liste correspond S 
une raie du spectre thgorique de I'arbre concerns. Pour 
25 verifier que les raies thSoriques existent dans le spectre 
experimental, il suffit de verifier que le fragment 
correspondant est inclus dans une des < sequences » de la 
« decomposition ». Ces sequences 6taient : 

HexNAC-HexNAC-Fucose-Hexose (sequence 1) 
30 HexNAC-HexNAC-Hexose-Fucose (sequence 2) 

Ainsi, en numerotant les fragments de la liste 
de 1 a 8, on constate que les fragments 1, 2, 3, 4 et 8 
sont inclus dans une des sequences, alors que les fragments 
5, 6 et 7 ne le sont pas. La deuxi^me verification consiste 
35 a regarder la composition des fragments non-valables avec 
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ia composition des fragments de mSme longueur, contenant la 
racine des « sequences Dans ce cas, les trois fragments, 
sont Sgalement rejet^s. Ainsi, le nombre de raies 
manquantes de cet arbre est de 3 . Les memes etapes sont 
5 realis6es pour les autres arbres . L' arbre qui a le plus 
petit nombre de raies manquantes est la plus probable, en 
1' occurrence ici, le quatriSme. 



10 L' invention est decrite dans ce qui precede a 

titre d'exemple. II est entendu que I'homme du metier est & 
m&me de rSaliser differentes variantes de 1' invention sans 
pour autant sortir du cadre du brevet 
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REVENDICATIONS 

1. ProcgdS de dStermination d'une structure 
5 molSculaire branchge a partir de donnSes de masses de 
fragments de ladite molecule, caractfirlsS en ce qu'il 
comprend les e tapes suivantes : 

a) une etape d' enregistrement dans une m^moire 
de la liste des Pigments de base pouvant 

10 constituer ladite molgcule branchge ; 

b) une €tape de stockage en mgmoire des 
solutions a une Equation mettant en jeu les 
filaments de base, leur masse, leur nombre et 
une des masses donnfies, ceci pour toutes les 

15 masses ; 

c) une 6tape de constitution de sequences 
d' elements de base a partir desdites 
solutions, chaque sequence incluant une 
solution pour une masse dite minimale et la 

20 sequence compl&te 6tant solution pour une 

masse dite maximale ; 

d) une Stape de regroupement des sequences par 
composition ; 

e) une gtape de stockage des arbres possibles 
2^ pour une composition d'glSments de base en 

fonction des sequences de cette composition 
d6termin6es k I'gtape c) / 

f) pour chaque arbre de I'Stape e) , une Stape de 
calcul de 1' ensemble des fragments possibles 

3 0 de 1' arbre ; 

g) pour chaque fragment de I'fitape f ) , une Stape 
de test permettant de savoir si le fragment 
correspond S une des masses donnees . 



35 
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2 . ProcfidS de determination d'une structure 
molSculaire branchSe selon la revendication 1, caract6ris6 
en ce que I'gtape b) est rSalisge de manidre incrgmentale 
depuis la plus petite masse vers la plus grande masse, que 

5 la solution pour \ine masse est cherchSe en utilisant les 
solutions trouvSes pour les masses infgrieures et que lee 
donnSes correspondant aux dites solutions sont stock^es dans 
un tableau. 

3 • Proc4d6 de determination d'une structure 
10 molgculaire branchfie selon I'une des revendications 

pr^cSdentes, caractgrisS en ce que I'etape c) consiste ^ 
dgf inir le N-feme Pigment de base de la sequence en comparant 
la solution N pour la masse en cours de traitement avec la 
solution N-1 a partir de laquelle la solution N a 6t6 
15 trouvge et a 6crire dans un fichier un identifiant dudit N- 
§me element de base. 

4 . ProcSde de determination d'une structure 
moieculaire branch^e selon I'une des revendications 
prScSdentes, caractgrisg en ce que I'gtape e) consiste k : 

20 - associer k chaque element de base d'une 

sequence une donnee de type « noeud » 
comportant un identifiant de 1' element de 
base et au.moins une reference k un autre 
noeud ; 

2^ - a la N-eme etape, pour chaque arbre de 

I'etape N-1, pour chaque noeud comportant une 
reference libre, creer un noeud contenant le 
composant N de la sequence et affecter ladite 
reference libre audit noeud cree / 
30 5. Procede de determination d'une structure 

moieculaire branchee selon I'une des revendications 
precedentes, caracterise en ce que I'etape f) consiste k 
generer une liste de sequences d' elements de base oCl chaque 
sequence inclut ladite solution pour une masse minimale, les 
35 elements du fragment correspondant a ladite sequence etant 
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ordonngs par ajout de « nceud » en <c noeud » a partir de 
ladite solution pour une masse minitnale. 

6 . PrpcSdS de dfitermination d'une structure 
moleculaire branchge selon I'une des revendications 
pr6c6dentes, caract6ris§ en ce que I'gtape g) est coraposS de 
deux Stapes : 

- Une Stape de comparaison de la sequence 
correspondant audit fragment avec les sequences 
de ladite composition resultant un premier 
boolSen VRAI ou FAUX ; 

- Si ledit premier booleen est FAUX, une 6tape de 
comparaison de la composition de ladite sequence 
avec les compositions des sous -sequences de mSme 
longueur incluant la solution minimale desdites 
sequences solutions pour une masse maximale 
resultant un deuxiSme boolSen VRAI ou FAUX. 

7 . Proc6d6 de determination d'une structure 
moleculaire branchSe selon la revendication 6, caract6ris§ 
en ce qu'il comprend une €tape supplemental re de choix de 
I'arbre (des arbres) le(s) plus pertinent (s) en fonction des 
rSsultats de I'Stape g) en associant k chacun des arbres 
g^ngrgs a l'6tape e) un compteur mis k zero au dSbut du 
procgde et incrgmente d'un si lesdits deux bool^ens sont 
FAUX et en choisissant I'arbre (ou les arbres) dont le(s) 
compteur(s) est (sont) le(s) plus faible(s). 

8, Utilisation du proc€d6 de determination d'\m 
structure moleculaire branchSe selon I'une des 
revendications prgcSdentes, caracterisSe en ce que la 
structure recherchge est un oligosaccharide, les donnSes de 
masse sont obtenues par spectromgtrie de masse et les 
elements de base sont des monosaccharides ou des groupements 
substituants . 
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